智能论文笔记

Stereo Co-capture System for Recording and Tracking Fish with Frame- and Event Cameras

Friedhelm Hamann , Guillermo Gallego

分类：计算机视觉

2022-07-15

这项工作介绍了使用常规摄像头和事件摄像机的多动画视觉数据获取的共同捕获系统。事件摄像机比基于框架的相机具有多个优势，例如高时间分辨率和时间冗余抑制，这使我们能够有效捕获鱼类的快速和不稳定的运动。此外，我们提出了一种基于事件的多动物跟踪算法，该算法证明了该方法的可行性，并为进一步探索事件摄像机和传统摄像机的多动物跟踪的优势提供了基础。

translated by 谷歌翻译

IRT2: Inductive Linking and Ranking in Knowledge Graphs of Varying Scale

Felix Hamann , Adrian Ulges , Maurice Falk

分类：机器学习 | 人工智能 | 自然语言处理

2023-01-02

We address the challenge of building domain-specific knowledge models for industrial use cases, where labelled data and taxonomic information is initially scarce. Our focus is on inductive link prediction models as a basis for practical tools that support knowledge engineers with exploring text collections and discovering and linking new (so-called open-world) entities to the knowledge graph. We argue that - though neural approaches to text mining have yielded impressive results in the past years - current benchmarks do not reflect the typical challenges encountered in the industrial wild properly. Therefore, our first contribution is an open benchmark coined IRT2 (inductive reasoning with text) that (1) covers knowledge graphs of varying sizes (including very small ones), (2) comes with incidental, low-quality text mentions, and (3) includes not only triple completion but also ranking, which is relevant for supporting experts with discovery tasks. We investigate two neural models for inductive link prediction, one based on end-to-end learning and one that learns from the knowledge graph and text data in separate steps. These models compete with a strong bag-of-words baseline. The results show a significant advance in performance for the neural approaches as soon as the available graph data decreases for linking. For ranking, the results are promising, and the neural approaches outperform the sparse retriever by a wide margin.

translated by 谷歌翻译

Trace and Detect Adversarial Attacks on CNNs using Feature Response Maps

Mohammadreza Amirian , Friedhelm Schwenker , Thilo Stadelmann

分类：计算机视觉

2022-08-24

对卷积神经网络（CNN）的对抗性攻击的存在质疑这种模型对严重应用的适合度。攻击操纵输入图像，使得错误分类是在对人类观察者看上去正常的同时唤起的 - 因此它们不容易被检测到。在不同的上下文中，CNN隐藏层的反向传播激活（对给定输入的“特征响应”）有助于可视化人类“调试器” CNN“在计算其输出时对CNN”的看法。在这项工作中，我们提出了一种新颖的检测方法，以防止攻击。我们通过在特征响应中跟踪对抗扰动来做到这一点，从而可以使用平均局部空间熵自动检测。该方法不会改变原始的网络体系结构，并且完全可以解释。实验证实了我们对在Imagenet训练的大规模模型的最新攻击方法的有效性。

translated by 谷歌翻译

HTML版本

Radial Basis Function Networks for Convolutional Neural Networks to Learn Similarity Distance Metric and Improve Interpretability

Mohammadreza Amirian , Friedhelm Schwenker

分类：计算机视觉

2022-08-24

径向基函数神经网络（RBF）是用于模式分类和回归的主要候选者，并且已在经典的机器学习应用中广泛使用。但是，由于缺乏现代体系结构的适应性，RBF尚未使用常规卷积神经网络（CNN）纳入当代深度学习研究和计算机视觉。在本文中，我们通过修改训练过程并引入新的激活功能来训练现代视觉体系结构端到端以端对端进行图像分类，从而将RBF网络作为分类器将作为分类器。 RBF的特定架构使学习相似性距离度量可以比较和查找相似和不同的图像。此外，我们证明，在任何CNN体系结构上使用RBF分类器都提供了有关模型决策过程的新的人性化洞察力。最后，我们成功地将RBF应用于一系列CNN体系结构，并在基准计算机视觉数据集上评估结果。

translated by 谷歌翻译

HTML版本

PrepNet: A Convolutional Auto-Encoder to Homogenize CT Scans for Cross-Dataset Medical Image Analysis

Mohammadreza Amirian , Javier A. Montoya-Zegarra , Jonathan Gruss , Yves D. Stebler , Ahmet Selman Bozkir , Marco Calandri , Friedhelm Schwenker , Thilo Stadelmann

分类：计算机视觉

2022-08-19

随着Covid-19在世界范围内的传播，需要快速，精确的自动分诊机制，以减少人类的努力，例如用于基于图像的诊断。尽管文献在这个方向上显示出了有希望的努力，但报告的结果并未考虑在不同情况下获得的CT扫描的可变性，因此，渲染模型不适合使用，例如使用例如使用例如不同的扫描仪技术。虽然现在可以使用PCR测试有效地进行COVID-19诊断，但该用例却例证了一种方法来克服数据可变性问题以使医疗图像分析模型更广泛地适用。在本文中，我们使用COVID-19诊断的示例明确解决了可变性问题，并提出了一种新颖的生成方法，旨在消除例如成像技术同时通过利用深度自动编码器的想法来同时引入CT扫描的最小变化。拟议的预性架构（PrepNet）（i）在多个CT扫描数据集上共同训练，（ii）能够提取改进的判别特征以改善诊断。三个公共数据集（SARS-COVID-2，UCSD COVID-CT，MOSMED）的实验结果表明，我们的模型将交叉数据集的概括提高了高达$ 11.84 $ $的百分比，尽管数据集绩效中的情况略有下降。

translated by 谷歌翻译

Approximate Equivariance SO(3) Needlet Convolution

Kai Yi , Jialin Chen , Yu Guang Wang , Bingxin Zhou , Pietro Liò , Yanan Fan , Jan Hamann

分类：人工智能 | 机器学习

2022-06-17

本文为旋转组开发了旋转不变的阵阵卷积，因此（3）可以提炼球形信号的多尺度信息。球形的阵头变换从$ \ mathbb {s}^2 $推广到SO（3）组，该组通过一组紧密的Framelet操作员将球形信号分解为近似和详细的光谱系数。分解和重建过程中的球形信号实现了旋转不变性。基于阵型变换，我们形成了一个带有多个SO（3）一面卷积层的NEDLET近似均值球形CNN（NES）。该网络建立了一个强大的工具，可以提取球形信号的几何不变特征。该模型允许具有多分辨率表示的足够网络可伸缩性。通过小波收缩激活函数学习了强大的信号嵌入，该函数会过滤冗余高通表示，同时保持近似旋转不变性。 NES实现了量子化学回归和宇宙微波背景（CMB）的最新性能，删除重建，这显示了通过高分辨率和多尺度球形信号表示解决科学挑战的巨大潜力。

translated by 谷歌翻译

Seamless lightning nowcasting with recurrent-convolutional deep learning

Jussi Leinonen , Ulrich Hamann , Urs Germann

分类：机器学习

2022-03-15

提出了一个深度学习模型，以便在未来60分钟的五分钟时间分辨率下以闪电的形式出现。该模型基于反复横向的结构，该结构使其能够识别并预测对流的时空发展，包括雷暴细胞的运动，生长和衰变。预测是在固定网格上执行的，而无需使用风暴对象检测和跟踪。从瑞士和周围的区域收集的输入数据包括地面雷达数据，可见/红外卫星数据以及衍生的云产品，闪电检测，数值天气预测和数字高程模型数据。我们分析了不同的替代损失功能，班级加权策略和模型特征，为将来的研究提供了指南，以最佳地选择损失功能，并正确校准其模型的概率预测。基于这些分析，我们在这项研究中使用焦点损失，但得出结论，它仅在交叉熵方面提供了较小的好处，如果模型的重新校准不实用，这是一个可行的选择。该模型在60分钟的现有周期内实现了0.45的像素临界成功指数（CSI）为0.45，以预测8 km的闪电发生，范围从5分钟的CSI到5分钟的提前时间到CSI到CSI的0.32在A处。收货时间60分钟。

translated by 谷歌翻译

Benchmarking Online Sequence-to-Sequence and Character-based Handwriting Recognition from IMU-Enhanced Pens

Felix Ott , David Rügamer , Lucas Heublein , Tim Hamann , Jens Barth , Bernd Bischl , Christopher Mutschler

分类：机器学习

2022-02-14

目的。手写是日常生活中最常见的模式之一，由于它具有挑战性的应用，例如手写识别（HWR），作家识别和签名验证。与仅使用空间信息（即图像）的离线HWR相反，在线HWR（ONHWR）使用更丰富的时空信息（即轨迹数据或惯性数据）。尽管存在许多离线HWR数据集，但只有很少的数据可用于开发纸质上的ONHWR方法，因为它需要硬件集成的笔。方法。本文为实时序列到序列（SEQ2SEQ）学习和基于单个字符的识别提供了数据和基准模型。我们的数据由传感器增强的圆珠笔记录，从三轴加速度计，陀螺仪，磁力计和力传感器100 \，\ textit {hz}产生传感器数据流。我们建议各种数据集，包括与作者依赖和作者无关的任务的方程式和单词。我们的数据集允许在平板电脑上的经典ONHWR与传感器增强笔之间进行比较。我们使用经常性和时间卷积网络和变压器与连接派时间分类（CTC）损失（CTC）损失（CE）损失，为SEQ2SEQ和基于单个字符的HWR提供了评估基准。结果。我们的卷积网络与Bilstms相结合，优于基于变压器的架构，与基于序列的分类任务的启动时间相提并论，并且与28种最先进的技术相比，结果更好。时间序列扩展方法改善了基于序列的任务，我们表明CE变体可以改善单个分类任务。

translated by 谷歌翻译

3D Structural Analysis of the Optic Nerve Head to Robustly Discriminate Between Papilledema and Optic Disc Drusen

Michaël J. A. Girard , Satish K. Panda , Tin Aung Tun , Elisabeth A. Wibroe , Raymond P. Najjar , Aung Tin , Alexandre H. Thiéry , Steffen Hamann , Clare Fraser , Dan Milea

分类：计算机视觉 | 机器学习

2021-12-18

目的：（1）开发深度学习算法，以识别3D光学相干断层扫描（OCT）扫描中的视神经头（ONH）的主要组织结构; （2）利用这些信息在健康，光盘博森（奇数）和乳头膜ONHS之间鲁棒地区分。由于高颅内压（51只眼）和健康对照（100只眼睛），这是一种横截面对比研究，由于高颅内压（51只眼睛），以及健康的对照（100只眼）。使用OCT获得ONH的3D扫描，然后加工以改善深层组织可见性。首先，使用984 B-Scans（从130只眼睛）开发了深度学习算法，以识别：主要的神经/结缔组织和奇数区域。使用骰子系数（DC）评估我们的算法的性能。在第2步骤中，使用1500Ct卷设计了一个分类算法（随机林），以严格从其德鲁森和普拉拉马那肿胀得分（来自细分）来执行3级分类（1：奇数，2：Papilledema，3：健康））。为了评估性能，我们报告了每个类的接收器操作特征曲线（AUC）下的区域。我们的分割算法能够在存在时隔离神经和结缔组织和奇数区域。这是在测试集上的平均DC为0.93 $ 0.03的平均直流，相应于良好性能。分类是用高AUC的分类，即检测奇数，0.99美元0.01 0.01美元，用于检测Papilledema的0.99美元，0.98美元$ 0.02用于检测健康的ONH。我们的AI方法可以使用单个OCT扫描来准确地歧视奇数乳头。我们的分类表现非常出色，有需要在更大的人口中验证。我们的方法可能有可能建立10月作为神经眼科诊断成像的主干。

translated by 谷歌翻译